017 爬虫基本原理
爬虫基本原理¶
基本流程¶
- 发起请求
- 获取响应内容
- 解析内容
- 保存数据
Request¶
- 请求方式
- 请求url
- 请求头
- 请求体
Response¶
- 响应状态
- 响应头
- 响应体
哪些数据¶
- 网页文本
- 图片
- 视频
- 其他
解析方式¶
- 直接处理
- Json解析
- 正则表达式
- BeautifulSoup
- Pyquery
- Xpath
JavaScript渲染问题¶
- 分析Ajax请求
- Selenium/WebDriver
- Splash
- PyV8、Ghost.py
如何保存数据¶
- 文本
- 关系型数据库
- 非关系型数据库
- 二进制文件
常用的环境配置¶
MongoDB¶
redis¶
mysql¶
常用库安装¶
- pip install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter